基于贝叶斯算法的垃圾邮件过滤系统设计与实现

基于贝叶斯算法的垃圾邮件过滤系统设计与实现

作者:师大云端图书馆 时间:2020-01-18 分类:参考文献 喜欢:2670
师大云端图书馆

【摘要】伴随着互联网的大爆发,电子邮件成为人们日常沟通交流的重要方式,正是因为电子邮件有着无与伦比的优势像收发容易、操作简单、费用低廉等,所以众多网络用户将电子邮件列为他们的首选联系方式。然而伴随着网络邮件的发展,我们的邮箱经常会收到不认识的人或地址发来的邮件。这种邮件以各种广告信息为主例如免费通话、打折商品、各种非法信息等。这些邮件可能与你的工作与生活毫不相干,或就是你十分厌恶的,但类似的这些邮件每天都“执着的”丰富着你的邮箱,打扰着你的生活,有时候它还会带来病毒使计算机中毒导致瘫痪。这种强行进入到用户电子邮箱里的邮件就是所谓的垃圾邮件(UBE,UnsolicitedBulkEmail)或者又称为商业宣传邮件(UnsolicitedCommercialEmail,指以宣传商品为主要内容的邮件)。鉴于垃圾邮件给现代社会造成了极大的危害,研究如何更好的抑制垃圾邮件的滥发变得愈发紧迫,国际化的反垃圾邮件技术一直是人们讨论的热点话题。本论文在基于前人的理论与研究基础之上,系统的学习了电子邮件的理论与国际上的垃圾邮件过滤方法,主要分析的重点是朴素贝叶斯算法对垃圾邮件的分类研究。论文首先介绍了电子邮件的发展历程及电子邮件的工作原理,介绍了电子邮件中常用到的几种协议,比如MIME(MultipurposeInternetMailExtensions)、SMTP(SimpleMailTransferProtocol)。其次介绍了基于规则的垃圾邮件过滤,分别有发送者邮件地址分析、接收者邮件地址过滤、黑白名单过滤、邮件主题过滤等。这些相关的规则集组成了反垃圾邮件的第一道防线。最后重点介绍了基于内容的朴素贝叶斯算法应用于垃圾邮件过滤,根据朴素贝叶斯算法的不足做出了一些改进。对中文分词的几种获取方法进行了相关的介绍,主要有词典中文分词方法、N-gram方法和人工分词等,然后建立能表征邮件文本内容的特征向量,对已知分类的邮件语料进行系统学习,利用朴素贝叶斯理论对新收到的电子封邮件进行判别归类,最终将电子邮件呈现给用户为垃圾邮件还是正常邮件。最后在理论与相关的技术的结合下,本文给出了一个朴素贝叶斯对垃圾邮件分类的模拟,通过对邮件样本学习进行垃圾邮件过滤,垃圾邮件和正常邮件的比例参考了《中国反垃圾邮件状况调查报告》中垃圾邮件占用户邮件中的百分比,通过实验得到的数据反映了该方法对垃圾拦截的有效性。
【作者】王龙龙;
【导师】周斌;
【作者基本信息】吉林大学,计算机应用技术,2014,硕士
【关键词】邮件协议;贝叶斯过滤器;中文分词;邮件分类;

【参考文献】
[1]吴冬.GATA-3基因多态性与LAPTM5基因功能在儿童白血病中的研究[D].苏州大学,儿科学,2014,硕士.
[2]肖迪.汽车纵向防撞预警控制系统建模与仿真研究[D].湖南大学,车辆工程,2014,硕士.
[3]潘丽君.轧制固态扩渗铝系镁合金表面组织与性能研究[D].太原科技大学,材料加工工程,2014,硕士.
[4]宋静雯.宋诗女性服饰描写研究[D].淮北师范大学,文艺学,2014,硕士.
[5]奉亚辉,刘宝军.加快国家防汛抗旱指挥系统工程建设步伐实现防汛抗旱指挥现代化[J].水利规划与设计.2004(01)
[6]薛文强.二维不可压涡量—流函数Navier-Stokes方程组非均匀网格上高阶紧致差分格式及多重网格算法[D].宁夏大学,计算数学,2014,硕士.
[7]郑桂喜.血清microRNA作为生物标记物在结直肠腺癌早期诊断中的应用[D].山东大学,临床检验诊断学,2014,博士.
[8]姚炯.柿竹园柴山3000t/d井下带式输送系统设计研究[D].长沙矿山研究院,机械设计及其理论,2014,硕士.
[9]杨忠杰.株洲四水厂净水工程招标研究[D].西南交通大学,工商管理,2003,硕士.
[10]周楠.唐代山东四姓政风问题研究[D].河北大学,中国古代史,2014,硕士.
[11]陶冶.兰州市社区卫生服务中心服务能力及满意度分析与评价[D].兰州大学,社会医学与卫生事业管理,2013,硕士.
[12]杨登涛.有机染料曙红Y参与可见光催化的磺酰基脱除及芳构化反应研究[D].兰州大学,有机化学,2013,硕士.
[13]吕安民,张月华,李成名,林宗坚.地图数据中的信息挖掘[J].测绘通报,2002,04:43-44.
[14]王璐.中信银行引进战略投资者影响研究[D].内蒙古大学,工商管理,2013,硕士.
[15]俞滨.深度休闲理论视角下的大学生休闲参与、休闲满意度和主观幸福感[D].浙江大学,英语语言文学,2014,硕士.
[16]黄卫湘.论华南—珠江流域中上游地区壮侗语族群口头创作的稻作文化内涵[D].广西师范大学,少数民族语言文学,2003,硕士.
[17]张晓星.交互式电子白板在英语教学中的应用研究[D].河北师范大学,现代教育技术,2013,硕士.
[18]马娜.我国食品安全监管制度完善研究[D].西北大学,经济法学,2014,硕士.
[19]陈敬珍.视点层级性及其对语篇连贯的影响[D].四川外国语大学,英语语言文学,2013,硕士.
[20]沈育德.从网络社会看道德秩序的构建[D].华东交通大学,思想政治教育,2013,硕士.
[21]侯璞.信息披露质量与公司财务状况关系研究[D].北京交通大学,2014.
[22]张鑫,徐文胜,刘阶萍,姚燕安.基于Kinect的智能花盆体感控制系统研究[J].机电工程,2014,09:1226-1230.
[23]杨国来.多柔体系统参数化模型及其在火炮中的应用研究[D].南京理工大学,1999.
[24]王俊锡.两种麻醉方法在婴儿唇腭裂整复术中的应用研究[D].山西医科大学,药理学,2013,硕士.
[25]烟晓利.基于需求分析的高职商务英语课程设置的调查研究[D].河北师范大学,学科教学,2013,硕士.
[26]王鹏.任意分布参数的涡轮盘低周疲劳失效概率敏感度及其鲁棒设计[D].东北大学,机械电子工程,2010,硕士.
[27]张青山.城郊矿深部岩巷围岩地质特征分类及控制对策研究[D].中国矿业大学,采矿工程,2014,硕士.
[28]井元伟,严星刚,于守江,张嗣瀛.基于状态观测器的伪非线性系统的镇定设计[J].控制与决策,1996,01:28-33.
[29]魏斌.基于GIS和RS的城市空间扩展研究分析[D].鲁东大学,自然地理,2014,硕士.
[30]刘超.家用洗衣机直驱三相永磁同步电机的研究[D].沈阳工业大学,电机与电器,2013,硕士.
[31]深圳商报记者刘艺超.中国宝安的战略蜕变[N].深圳商报,2013-10-30B03.
[32]李勤学,张向君,吴志强,李清仁.反射系数满足分形条件下的反褶积[J].石油地球物理勘探,1997,01:98-103.
[33]刘彦龙.竹炭固相微萃取分析水中持久性有机物的研究和应用[D].武汉理工大学,环境工程,2013,硕士.
[34]任祺君.基于腔量子电动力学的单个量子点与微腔的耦合与调控研究[D].复旦大学,光学,2010,博士.
[35]记者吴晋娜.国内首片15英寸单层石墨烯透明电极制备成功[N].科技日报,2013-01-28006.
[36]宋义虎,郑强.巨磁阻高分子复合材料的研究进展[J].高分子材料科学与工程,2014,02:179-185.
[37]景旭文,易红,潘宝俊,周宏根,骆霞武.基于数据挖掘工具的机械产品概念设计研究[J].机械科学与技术,2004,10:1215-1218.
[38]比约恩.关于浙江大学高级德语学习者学习动机的质性研究[D].浙江大学,中国学,2012,硕士.
[39]丁妮.大学生生命安全教育体系建设研究[D].山西财经大学,教育经济与管理,2014,硕士.
[40]汪翠翠.电子双板在初中物理教学中的应用研究[D].华中师范大学,教育技术学,2013,硕士.
[41]张博.我国艺术品金融化发展及路径选择[D].河北经贸大学,金融学,2013,硕士.
[42]陈胡婕.泉州金融支持实体经济发展问题研究[D].华侨大学,金融(专业学位),2014,硕士.
[43]禹海波,王莹莉,董承华.需求不确定性对混合条件风险价值约束供应链系统的影响[J].控制与决策.
[44]盛会平,林王鹏,周勇.信号处理在舰船目标识别中研究发展综述[J].舰船电子工程,2013,12:3-6+111.
[45]陈发明.新时期官场小说考论[D].浙江师范大学,中国现当代文学,2004,硕士.
[46]关婧媛.中小软件企业质量管理体系的探讨[D].北京交通大学,2013.
[47]杨树.通过泡沫理论研究中国股票市场的信号效应[D].复旦大学,财务管理,2012,硕士.
[48]曾鹏.大型远洋拖网加工渔船鱼产品加工流水线控制系统设计[D].浙江海洋学院,农业推广(专业学位),2013,硕士.
[49]曾鸣.Y寿险公司客户关系管理研究[D].南京理工大学,工商管理,2011,硕士.
[50]丁刚,钟诗胜.具有时变输入输出函数的反馈过程神经网络及应用[J].控制与决策,2007,01:91-94+99.

相关推荐
更多